Replay fuera de política: desaprendizaje eficiente en LLM
Aprende cómo ReRULE usa replay off-policy para desaprender LLMs, reutilizando casos difíciles y mejorando retención un 21% sin sacrificar rendimiento.
Aprende cómo ReRULE usa replay off-policy para desaprender LLMs, reutilizando casos difíciles y mejorando retención un 21% sin sacrificar rendimiento.